home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1995 April / Internet Tools.iso / infoserv / www / cern / dev / www-talk.9301-9306.Z / www-talk.9301-9306 / text0125.txt < prev    next >
Encoding:
Text File  |  1995-04-24  |  4.4 KB  |  101 lines

  1. In article <23177A@erik.naggum.no> you write:
  2. >Dan Connolly <connolly@convex.com> writes:
  3. >|
  4. >|   The WWW group is attempting to define a multimedia interchange
  5. >|   format called HTML.  . . .
  6. >
  7. >Why not use HyTime?
  8. >
  9. Eric:
  10. Partyly because of ignorance (we've heard of HyTime, but we don't
  11. know the details). I'd expect a HYTIME engine to be quite a bit
  12. of work to implement. And partly because, as I understand it, HYTIME
  13. doesn't go as far as to perscribe a DTD. The WWW project needs
  14. one particluar language, not a whole architecture.
  15.  
  16. I'd certainly like to know more about HYTIME's techniques for addressing
  17. documents, esp. elements of documents.
  18.  
  19. Now for the WWW gang:
  20. >:
  21. >|   That is, is it possible to put an arbitrary 8 bit binary stream
  22. >|   _inside_ an SGML document? My guess is: no. But if we use
  23. >|   CDATA, can we include anything that doesn't contain the closing
  24. >|   tag in full?
  25. >
  26. >If you by "the closing tag in full" mean the entire end-tag, complete
  27. >with etago, generic identifier, and tagc, as in "</image>", this is not
  28. >the way SGML does it.  CDATA and SDATA are terminated by a etago
  29. >"delimiter-in-context", which is an etago (end-tag open, "</") delimiter
  30. >followed by a name start character, or a grpo (group open, "(")
  31. >delimiter if concurrent document types are allowed.  In the reference
  32. >concrete syntax, this means that the regular expression "</[(a-z]"
  33. >matches the end of CDATA and SDATA elements.
  34. >
  35. >You can also use marked sections, with a CDATA status keyword, in which
  36. >case the CDATA is terminated by the mse delimiter (marked section end,
  37. >"]]>").
  38. >
  39. >:
  40. >|   Someone made the point that an SGML document is only allowed to
  41. >|   include SGML characters as specified by the SGML declaration, and if
  42. >|   we're going to use the default SGML declaration, we have to stick to
  43. >|   the characters blessed by it.
  44. >
  45. >Blessed and blessed.  The SGML declaration is supposed to reflect the
  46. >reality of the document, not enforce arbitrary limits on them.  So you
  47. >write an SGML declaration which fits the document.
  48. >
  49. >|   That's not my understanding. I thought that inside CDATA (or SDATA,
  50. >|   I think) you could put _anything_ but the closing tag in full.
  51. >
  52. >As said above, the etago delimiter-in-context terminates the data,
  53. >regardless of whether it's a legal end-tag in that context.
  54. >
  55. >You should be aware that the SGML parser will parse the contents of the
  56. >"binary" content, and ignore record start, and treat record ends
  57. >different from other characters.  In addition, it's an error for an SGML
  58. >entity to contain characters with any of the numbers listed in the
  59. >SHUNCHAR part of the SYNTAX declaration.  This is _not_ what you want
  60. >with binary data.
  61. >
  62. >|   What's the scoop? Do we have to use external entities for raw data?
  63. >
  64. >Yes.  An external entity that is not an SGML text entity requires a
  65. >notation identifier, so you only need to list the entities in the DTD,
  66. >with notation, and refer to them by name in the document instance.
  67. >
  68. >If this is not satisfactory, you should declare the objects to be CDATA,
  69. >and use a binary to text-only transformation scheme.  There are several
  70. >such schemes.  Among them, base64 is the preferred encoding in my view,
  71. >since it's available as part of the new Multipurpose Internet Mail
  72. >Extensions (MIME) RFC-to-be.  (The latest draft is available for
  73. >anonymous FTP as ftp.ifi.uio.no:/pub/SGML/MIME.6.ps and MIME.6.txt for
  74. >two weeks from today.  Section 5.2 which concerns the base64 encoding is
  75. >also available as ftp.ifi.uio.no:/pub/SGML/base64.txt.)  Transformation
  76. >back to the binary form from the text-only form may be done on the fly
  77. >by the application before sending the data to the notation interpreter.
  78. >
  79. My idea is to use MIME encodings, but put these attachments _outside_
  80. the SGML text, in an attached (or external) body part.
  81.  
  82. >In addition to being much easier to deal with in SGML, this also makes
  83. >SGML documents containing such content robust with respect to file
  84. >transfer, etc.
  85. >
  86. >Hope this helps,
  87. ></Erik>
  88.  
  89. Thanks. Mostly it confirms my suspicions, but it should also provide
  90. a somewhat authoritative answer (no references to ISO 8879 here :-)
  91. to the WWW project.
  92.  
  93. >--
  94. >Erik Naggum       |  +47-295-0313     |  ISO 8879 SGML     |  Memento,
  95. >Naggum Software   |   "fuzzface"      |  ISO 10744 HyTime  |  terrigena.
  96. >Boks 1570, Vika   | <erik@naggum.no>  |  JTC 1/SC 18/WG 8  |  Memento,
  97. >0118 OSLO, NORWAY | <enag@ifi.uio.no> |  SGML UG SIGhyper  |  vita brevis.
  98.  
  99.  
  100.  
  101.